{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "intro",
   "metadata": {},
   "source": [
    "# 数据分析理论篇\n",
    "\n",
    "## 核心流程图\n",
    "\n",
    "```\n",
    "问题定义 → 数据收集 → 数据清洗 → 数据分析 → 结果解释 → 行动方案 → 效果评估\n",
    "    ↑                                                                    |\n",
    "    └────────────────────────────── 持续优化 ←─────────────────────────┘\n",
    "```\n",
    "\n",
    "---\n",
    "\n",
    "## 一、问题定义\n",
    "\n",
    "### 核心任务\n",
    "- 明确商业目标（SMART原则）\n",
    "- 确定关键指标（KPI）\n",
    "\n",
    "### 实例\n",
    "**目标**：提高网站转化率  \n",
    "**KPI**：访问→购买转化率从2%提升到3%（3个月内）  \n",
    "**细化问题**：\n",
    "- 哪些用户行为影响转化？\n",
    "- 产品页面设计是否需要优化？\n",
    "- 客户服务流程是否顺畅？\n",
    "\n",
    "---\n",
    "\n",
    "## 二、数据收集\n",
    "\n",
    "### 数据类型\n",
    "| 类型 | 示例 | 来源 |\n",
    "|------|------|------|\n",
    "| 结构化数据 | 销售数据、用户信息 | 数据库、ERP、CRM |\n",
    "| 非结构化数据 | 评论、图片、视频 | 社交媒体、客户反馈 |\n",
    "\n",
    "### 收集方法\n",
    "- **自动化**：API、爬虫（适合大规模数据）\n",
    "- **手动**：问卷、人工录入（适合主观数据）\n",
    "\n",
    "### 注意事项\n",
    "✓ 数据合法性（GDPR等法规）  \n",
    "✓ 数据质量（准确性、完整性）\n",
    "\n",
    "---\n",
    "\n",
    "## 三、数据清洗\n",
    "\n",
    "### 常见问题及处理\n",
    "\n",
    "| 问题 | 影响 | 处理方法 |\n",
    "|------|------|----------|\n",
    "| 缺失值 | 影响统计结果 | 删除/填充（均值、中位数、预测） |\n",
    "| 异常值 | 导致偏差 | 识别（箱线图/IQR）→判断→处理 |\n",
    "| 重复值 | 数据失真 | 去重 |\n",
    "| 不一致 | 格式混乱 | 标准化（日期、单位、文本） |\n",
    "\n",
    "### 清洗原则\n",
    "高质量数据 = 准确分析的前提\n",
    "\n",
    "---\n",
    "\n",
    "## 四、数据分析\n",
    "\n",
    "### 分析方法体系\n",
    "\n",
    "```\n",
    "1. 描述性分析\n",
    "   ├─ 均值、中位数、标准差\n",
    "   └─ 频率分布、趋势观察\n",
    "\n",
    "2. 探索性分析（EDA）\n",
    "   ├─ 可视化（散点图、直方图、箱线图）\n",
    "   └─ 发现模式和关系\n",
    "\n",
    "3. 统计建模\n",
    "   ├─ 回归分析（预测数值）\n",
    "   └─ 分类分析（预测类别）\n",
    "\n",
    "4. 机器学习\n",
    "   ├─ 监督学习：分类、回归\n",
    "   └─ 无监督学习：聚类、降维\n",
    "```\n",
    "\n",
    "### 常用工具\n",
    "- **编程**：Python（Pandas、NumPy、Scikit-learn）\n",
    "- **可视化**：Matplotlib、Seaborn、Tableau、Power BI\n",
    "- **数据库**：SQL\n",
    "\n",
    "---\n",
    "\n",
    "## 五、结果解释\n",
    "\n",
    "### 转化为商业洞察\n",
    "\n",
    "**数据** → **洞察** → **行动建议**\n",
    "\n",
    "**关键**：\n",
    "- 结合业务背景理解数据\n",
    "- 找出数据背后的原因\n",
    "- 提出可操作的建议\n",
    "\n",
    "### 报告要点\n",
    "- **结构清晰**：引言→方法→结果→结论→建议\n",
    "- **语言简洁**：避免过多技术术语\n",
    "- **可视化呈现**：图表比表格更直观\n",
    "- **讲故事**：将数据与业务问题连接起来\n",
    "\n",
    "---\n",
    "\n",
    "## 六、行动方案\n",
    "\n",
    "### 制定策略\n",
    "1. 基于洞察制定具体策略\n",
    "2. 优先级排序（影响力×可行性）\n",
    "3. 明确目标和衡量标准\n",
    "\n",
    "### 实施计划\n",
    "- 明确目标\n",
    "- 分配资源\n",
    "- 时间安排和里程碑\n",
    "- 责任人明确\n",
    "\n",
    "### 风险管理\n",
    "- 识别潜在风险\n",
    "- 制定应对预案\n",
    "- 使用风险矩阵（可能性×影响程度）\n",
    "\n",
    "---\n",
    "\n",
    "## 七、效果评估\n",
    "\n",
    "### 评估方法\n",
    "\n",
    "| 方法 | 适用场景 | 优势 |\n",
    "|------|----------|------|\n",
    "| 对比分析 | 前后对比 | 直观简单 |\n",
    "| A/B测试 | 策略对比 | 科学严谨 |\n",
    "| ROI计算 | 投资回报 | 量化效益 |\n",
    "\n",
    "### 持续优化\n",
    "\n",
    "```\n",
    "评估 → 发现问题 → 调整策略 → 再评估\n",
    "  ↑                                |\n",
    "  └────────────── 闭环管理 ←──────┘\n",
    "```\n",
    "\n",
    "---\n",
    "\n",
    "## 附录：常用分析方法速查\n",
    "\n",
    "### A. 统计分析\n",
    "- **描述统计**：均值、中位数、众数、标准差、方差\n",
    "- **相关分析**：Pearson相关、Spearman相关\n",
    "- **假设检验**：t检验、卡方检验、ANOVA\n",
    "\n",
    "### B. 机器学习算法\n",
    "\n",
    "**回归**\n",
    "- 线性回归、岭回归、Lasso回归\n",
    "\n",
    "**分类**\n",
    "- 逻辑回归、决策树、随机森林、SVM\n",
    "\n",
    "**聚类**\n",
    "- K-means、层次聚类、DBSCAN\n",
    "\n",
    "**降维**\n",
    "- PCA、t-SNE\n",
    "\n",
    "### C. 时间序列\n",
    "- **模型**：AR、MA、ARMA、ARIMA\n",
    "- **应用**：销售预测、需求规划、异常检测\n",
    "\n",
    "---\n",
    "\n",
    "## 核心要点总结\n",
    "\n",
    "1. **严谨性**：每一步都需细致认真，确保结果可靠\n",
    "2. **业务理解**：数据分析不能脱离业务场景\n",
    "3. **沟通能力**：有效传达分析结果，促进数据驱动文化\n",
    "4. **持续优化**：数据分析是循环过程，需不断改进\n",
    "\n",
    "**记住**：数据分析的最终目的是支持业务决策，而不是展示技术。"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python [conda env:base] *",
   "language": "python",
   "name": "conda-base-py"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.13.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
